本文提出了在新日本大学入学考试中自动评分手写描述性答案的实验,这是2017年和2018年的约120,000名审查。大约有400,000个答案超过2000万个字符。虽然人类审查员的所有答案都得到了评分,但手写字符没有标记。我们展示了我们试图调整基于神经网络的手写识别员,在标记的手写数据集上培训到此未标记的答案集。我们所提出的方法结合了不同的培训策略,集成了多个识别器,并使用由大型常规语料库构建的语言模型来避免过度填充到特定数据。在我们的实验中,使用约2,000个验证标记的答案记录了超过97%的字符精度,该标记答案占数据集的0.5%。然后,将认可的答案基于BERT模型进入预先训练的自动评分系统,而无需纠正误识别的字符并提供Rubric注释。自动评分系统从二次加权Kappa(QWK)的0.84到0.98达到0.84至0.98。由于QWK超过0.8,它代表了自动评分系统与人类审查员之间得分的可接受相似性。这些结果是对描述性答案的结束自动评分的进一步研究。
translated by 谷歌翻译